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摘 要 : [目的 /意义 ] 知 识 图 谱 已 成 为 公共 数字 文化 资源 知识 组 织 的 新 形态 。 利 用 知识 图 谱 技 术 赋 能 红色 历史 人 物 知识 
问答 服务 ,提升 用 户 交互 体验 ,对 红色 历史 资源 的 开发 利用 具有 重要 意义 。[ 方 法 /过 程 ] 在 梳理 历史 人 物 数 字 资 
源 组 织 及 知识 问答 系统 相关 研究 的 基础 之 上 ,构建 了 红色 历史 人 物 知 识 图 谱 Schema 与 KBQA 架构 ,从 数据 获取 、 
知识 抽取 、 知 识 融 合 、 图 谱 生 成 和 知识 问答 五 个 环节 搭建 了 红色 历史 人 物 问 答 模型 ,并 以 老 上 大 历史 人 物 数字 资 


源 进行 实证 研究 。[ 


结果 /结论 ] 本 文 设计 的 知识 问答 服务 架构 在 红色 历史 人 物 数字 资源 的 图 谱 半自动 构建 、 知 识 


推理 与 智能 交互 方面 具有 优越 性 ,提升 了 用 户 知 识 服 务 体验 。 
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红色 文化 具有 鲜明 的 中 国 风格 和 典型 的 中 国 特 
亿 \ 芷 在 长 期 革命 ,建设 和 发 展 的 历史 进程 中 ,产生 并 
留 可 了 大 量 不 同形 式 . 样 态 的 红色 文化 资源 。 其 中 , 红 
的 济 史 人 物 作为 红色 文化 的 缔造 者 和 传播 者 ,是 红色 
文 伦 资 源 内 容 旦 现 和 展演 的 主要 载体 。 近 年 来 , 习 近 
吏 力 书记 反复 强调 “要 把 红色 资源 利用 好 、 把 红色 传统 
发 物 好 ,把 红色 基因 传承 好 ” ,推进 红色 文化 资源 尤其 
是 经 色 历史 人 物资 源 的 数字 化 组 织 .管理 和 开发 利用 ， 
对 蛤 广 红色 历史 人 物 , 弘 扬 红色 文化 精神 有 着 重要 的 
理论 价值 和 实践 意义 。 中 共 中 央 办 公 厅 国务院 办 公 


重 现 并 挖掘 红色 历史 人 物资 源 中 的 知识 关联 ,为 展现 
红色 历史 人 物 中 以 人 物 经 历 和 关系 为 脉络 的 各 类 信息 
内 容 提 供 了 可 能 ,同时 能 够 极 大 程度 丰富 红色 历史 人 
物资 源 的 知识 发 现 等 服务 方式 ,进一步 深化 红色 历史 
人 物 数字 资源 的 开发 利用 。 

因此 ,本 研究 拟 以 知识 图 谱 技 术 , 结 合 知 识 问 答 服 
务 框架 ,深入 探讨 红色 历史 人 物 数字 资源 组 织 、 管 理 和 
开发 利用 的 新 方式 ,以 期 实现 红色 历史 人 物 关联 数据 
的 发 布 ,从 而 完善 红色 历史 人 物 相关 的 数据 基础 设施 
建设 ,并 为 党 史馆 .博物馆 等 红色 旅游 遗址 及 文 创 产品 
的 建设 .研发 莫 定 基础 。 


1 研究 现状 


厅 曾 印发 《关于 实施 革命 文物 保护 利用 工程 (2018 
2022 年 ) 的 意见 》” ,文件 中 强调 要 适度 运用 现代 科技 
手段 ,增强 革命 文物 陈列 展览 的 互动 性 、 体 验 性 ,真正 
让 红色 文化 * 活 起 来 " ,充分 挖掘 红色 文化 资源 内 涵 ， 
提高 红色 文化 数字 资源 库 的 利用 率 。 

目前 ,红色 历史 人 物 数字 资源 的 组 织 、 管 理 和 利用 
模式 已 产生 了 “从 数据 孤立 到 数据 关联 ”的 变革 。 知 
识 图 谱 作为 当下 新 兴 且 应 用 广泛 的 一 种 展现 形式 ,能 
够 提供 语义 化 .可视化 .智慧 化 的 数字 资源 知识 组 织 范 
式 , 将 其 应 用 至 红色 历史 人 物 数字 资源 上 ,不 仅 有 助 于 


本 人 研究 对 于 红色 历史 人 物 数字 资源 的 组 织 、 管 理 
和 开发 利用 实则 建构 于 两 个 核心 问题 之 上 :历史 人 物 
数字 资源 组 织 及 知识 服务 的 研究 现状 如 何 ” 以 知识 图 
谱 为 基础 进行 问答 服务 的 方法 论 研究 现状 如 何 ? 下 文 
述评 围绕 上 述 两 个 关键 点 展开 。 
1.1 历史 人 物 数字 资源 组 织 及 知识 服务 研究 现状 

近年 来 ,历史 人 物 数字 资源 组 织 及 知识 服务 领域 
的 研究 主要 包括 以 下 三 个 方面 :一 是 历史 人 物 数据 库 
的 建设 ,典型 数据 库 有 古代 人 物 关系 数据 库 “ 中国 历代 
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二 由 


人 物 传 记 资料 库 (CBDB)”” 文化 部 全 国文 化 信息 资 
源 共享 工程 “湖南 近代 人 物资 源 库 ”" ,河北 红色 历史 
文化 资源 “李大钊 专题 数据 库 " 中 等 ,为 历史 人 物 数据 
库 的 概念 分 类 、 层 级 搭建 .内 容 选 取 等 研究 提供 了 经 
验 ;二 是 以 历史 人 物 数据 库 为 数据 基础 的 数据 拓展 与 
演变 ,其 代表 有 基于 RDF 形式 化 描述 的 学 术 名 人 知识 
模型 中 中 国 历代 人 文 传记 资料 库 关联 数据 平台 ( CB- 
DBLD)" .CBDB 历史 人 物 关 系 网 络 ” 等 , 皆 为 历史 人 
物资 源 数据 的 形式 化 表达 和 语义 关联 奠定 了 基础 ;三 
是 以 人 物 关系 可 视 化 展示 .知识 问答 为 代表 的 知识 服 
务 ,其 成 果 有 宋代 学 术 师 承 关系 可 视 化 展示 ”历史 人 
物 实体 关系 可 视 化 系统 ”和 中 国 历史 人 物 知识 智能 问 
管 系统 "等 ,为 历史 人 物 的 知识 服务 研究 拓宽 了 思 
路 = 以 上 研究 均 以 “历史 人 物 数字 资源 "为 研究 对 象 ， 
推迟 了 历史 人 物 数字 资源 知识 组 织 及 知识 服务 的 研究 
进程 ,为 本 研究 商定 了 数据 及 技术 基础 。 

1 邮 ) 基于 知识 图 谱 的 知识 问答 服务 方法 论 研究 现状 
加 基于 知识 图 谱 的 问答 服务 是 目前 知识 问答 领域 的 
热 虞 ,根据 众多 领域 知识 内 容 的 不 同 ,可 将 问答 服务 实 
珑 肪 法 粗 分 为 如 下 四 类 :第 一 类 ,基于 模板 匹配 的 问答 
论 洒 ,其 关键 在 于 预 设 SPARQL 模板 "" ,进而 依据 问 
题 绒 型 选取 模板 生成 答案 ,代表 服务 如 疾病 问答 系 
绝 记 投资 问答 系统 5 等 ;第 二 类 ,基于 语义 解析 的 问 
答 序 法 ,其 模式 为 通过 解析 自然 语言 问 句 来 返回 相应 
纳 毗 ,如 中 国 历史 人 物 知识 智能 问答 系统 .馆藏 文 物资 


i AP eT 2 3 
源 知 识 关联 与 智能 问答 系统 “等 ;第 三 类 ,基于 深度 


学 如 的 问答 方法 ,其 思路 为 通过 神经 网 络 等 技术 优化 
问 络 模型 ,代表 研究 如 LSTM 神经 网 络 构建 的 问答 模 
型 "基于 BERT 和 BiLSTM-CRF 的 古诗 知识 图 谱 智 
能 问答 系统 ' ;第 四 类 ,基于 知识 推理 的 智能 问答 方 
法 ,其 思路 是 通过 路 径 推 理 计算 得 到 知识 图 谱 中 的 隐 
含 知识 ,如 基于 多 模 态 信息 循环 推理 的 知识 问答 系 
统 “ .采用 MHRP 的 知识 推理 框架 “等 。 上 述 研究 从 
多 方面 阐述 了 基于 知识 图 谱 的 知识 问答 服务 构建 方 
法 , 均 对 本 研究 有 着 借鉴 意义 。 

统 而 言 之 ,目前 就 历史 人 物 数字 资源 组 织 .管理 与 
开发 利用 的 相关 研究 虽 已 取得 了 较为 丰富 的 成 果 , 但 
聚焦 到 基于 知识 图 谱 的 问答 系统 构建 研究 上 仍然 存在 
不 足 之 处 :一 是 知识 图 谱 构建 的 数据 源 多 以 结构 化 数 
据 为 主 , 鲜 有 从 半 结 构 化 数据 出 发 构建 图 谱 的 尝试 ;二 
是 针对 历史 人 物 知 识 图 谱 的 Schema 设计 在 与 用 户 需 
求 相 匹配 上 存在 不 足 ;三 是 基于 知识 图 谱 的 知识 问答 
服务 架构 有 待 优化 ,特别 是 意图 识别 和 知识 推理 方法 


有 待 进一步 完善 。 本 研究 将 结合 红色 历史 人 物 知 识 问 
管 服务 的 两 大 关键 ,着 力 解 决 上 述 不 足 问 题 。 


2 基于 知识 图 谱 的 红色 历史 人 物 知识 问 
答 服务 框架 设计 


2.1 红色 历史 人 物 知 识 问答 服务 的 两 个 关键 问题 
2.1.1 知识 库 设 计 : 红 色 历 史 人 物 知识 图 谱 Schema 

本 文 主要 采用 体验 式 设计 法 设计 红色 历史 人 物 知 
识 库 , 则 在 将 用 户 知识 问答 服务 核心 需求 与 红色 历史 
人 物 知识 图 谱 设 计 真 正 匹 配 起 来 ,以 增强 用 户 的 交互 
体验 。 人 研究 招募 红色 历史 人 物 兴 趣 爱 好 者 二 十 名 ,从 
红色 文献 相关 的 百度 百科 数据库、 微 信 公 众 号 等 数据 
源 选取 具有 代表 性 的 红色 历史 人 物资 料 50 余 篇 ,通过 
兴趣 爱好 者 阅读 材料 . 析 取 兴趣 问题 .问题 分 类 聚焦 等 
过 程 ,将 其 对 所 关注 历史 人 物 的 问答 需求 聚焦 为 基本 
信息 .革命 履历 .作品 著述 .社会 关系 、 档 案 资 源 等 5 个 
方面 。 根 据 以 上 问题 需求 ,然后 结合 已 有 历史 人 物资 
料 库 的 信息 内 容 , 按 照 自 项 向 下 的 方式 ,从 中 析 取 主要 
实体 12 类 关系 23 类 关键 属性 4 类 ,并 设计 出 红色 
历史 人 物 知识 图 谱 的 Schema , 见 图 1。 

红色 历史 人 物 知识 图 谱 的 Schema 要 素 主要 涵盖 
实体 .属性 .关系 三 个 类 别 , 其 中 实体 主要 揭示 与 红色 
历史 人 物 相关 的 客观 个 体 , 如 人 物 姓 名 、 代 表 作 名 称 、 
事件 名 称 和 地 点 名 称 等 ;属性 是 对 实体 内 涵 的 结构 化 
描述 ,如 事件 的 背景 和 影响 等 ;关系 主要 揭示 实体 与 实 
体 之 间 所 曾 含 的 某 种 联系 ,如 “ 人物” 和“ 人物” 之 间 可 
是 “ 师 生 /夫妻 /同学 /亲友 ”等 关系 。 通 过 实体 - 属 
性 -描述 .实体 -关系 -实体 的 三 元 组 框架 ,红色 历史 
人 物 知识 节点 之 间 的 网 络 关 联 得 以 建立 ,并 可 用 RDF 
数据 格式 形式 化 表达 。 需 要 强调 的 是 ,红色 历史 人 物 
知识 图 谱 的 Schema 设计 原则 是 简洁 有 效 , 对 于 无 法 通 
过 三 元 组 数据 直接 获取 的 信息 ,可 通过 知识 推理 实现 。 
以 图 1 所 示 虚 线 关系 为 例 ,通过 对 知识 图 谱 中 人 物 革 
命 履 历 进行 数据 挖掘 可 以 分 析出 人 物 与 事件 或 人 物 与 
地 名 的 隐 含 联系 ,通过 对 图 谱 中 不 同人 物 之 间 的 关系 
进行 多 步 计算 则 可 以 推理 得 到 某 些 人 物 之 间 隐 含 的 关 
系 , 这 些 都 是 对 知识 图 谱 已 有 数据 进行 挖掘 .分 析 和 推 
理 之 后 ,从 已 知事 实 出 发 找 出 其 中 所 列 含 新 "知识 "的 
过 程 。 

另外 ,红色 历史 人 物 知识 图 谱 的 Schema 设计 还 需 
遵循 开放 关联 数据 原则 ,并 尽 可 能 减少 数据 规约 ,从 而 
使 其 易于 与 场 外 新 数据 进行 融合 ,为 数据 增 广 和 长 路 
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径 推理 提供 概念 基础 。 目 前 ,红色 历史 人 物 知 识 图 谱 
Schema 主要 涵盖 红色 历史 人 物 的 基本 信息 .革命 履 
历 、 作 品 著 述 .社会 关系 .档案 资源 等 多 方位 信息 ,其 设 
计 可 随 着 需求 变化 和 时 间 推 移 不 断 按 需 动态 扩充 ,只 
需 将 新 加 入 的 实体 ,关系 、 属 性 按照 关联 数据 标准 链接 
到 现 有 Schema 即 可 。 红 色 历 史 人 物 知识 图 谱 Schema 
构建 为 红色 历史 人 物 的 知识 组 织 提供 了 底层 的 数据 基 
础 设施 支撑 ,便于 据 此 构建 红色 历史 人 物 知 识 图 谱 , 进 
而 为 KBQA 框架 设计 中 的 问答 Agent 提供 应 用 支撑 。 


/| 背景 描述 


筷 


个 


济 影响 描述 


TO 
并 


CN 
~> 图 1 红色 历史 人 物 知识 图 谱 Schema 


23C2 问答 服务 架构 :KBQA 架构 设计 及 其 运行 机 制 
(kBQA 架构 是 知识 问答 服务 架构 的 典型 形式 , 具 
有 可 解释 性 强 .部署 简 单 落地 快速 等 优势 。 本 研究 设 
计 移 红色 历史 人 物 知识 问答 服务 框架 也 采用 此 架构 ， 
主要 包括 了 四 个 要 素 : 问 题 .问答 agent 知识 库 和 答 
案 , 见 图 2。 问 题 模 块 的 任务 是 通过 flask 框架 析 取 用 
户 在 聊天 框 页 面 输入 的 包含 特定 提问 意图 的 自然 语 
名 ,并 将 其 传递 给 问答 agent; 问答 agent 作为 问答 服务 
的 核心 处 理 框架 , 历 括 了 从 识别 问题 到 给 出 答案 的 一 
系列 处 理 过 程 ,其 生成 的 答案 通过 flask 框架 反馈 到 答 
案 模块 ,以 回答 特定 意图 的 问题 ;答案 经 过 问答 核心 组 
件 的 处 理 流程 后 ,从 网 页 聊天 框 回复 给 用 户 ;知识 库 是 
以 NEO4J 为 存储 工具 的 知识 图 谱 ,为 整体 架构 提供 数 
据 基 础 。 
从 运行 机 制 上 讲 , 问 答 交互 方式 主要 以 聊天 框 一 
问 一 答 的 形式 进行 ,但 其 核心 流程 主要 在 “问答 a- 
gent” ,主要 包括 自然 语言 理解 .知识 图 谱 查 询 和 自然 
语言 合成 三 个 部 分 。 


(1) 自 然 语 言 理解 。 自 然 语言 理解 的 目标 是 将 文 


| 1 文本 预 处 理 | 工 通过 py2neo 调 用 知 


1 
| 
! | 2 实体 识别 | NE04J 启 动 查询 
: 识 | i i > 
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人 | | 。 ”图 谱 推 理 与 查询 


| 4. Cypher 查 询 表达 式 


| 2. 通过 python 编 程 分 


1 

1 

1 

1 

1 

| 

关系 查询 | 
| 

1 

o> 析 查 询 到 的 数据 ! 
| | 

1 

1 


| Py2neo-| 
i 1. 知识 库 结 果 反 人 馈 | 

答 fi 和 k， 2 通过 规则 定义 生成 。 | 

案 ， | 回答 语句 | 


2 智能 问答 服务 架构 


本 信息 转换 为 可 被 机 器 处 理 的 语义 表示 ,在 本 研究 中 
主要 指 问答 系统 需要 识别 用 户 语句 中 所 包含 的 问答 意 
图 并 转换 为 相应 的 查询 语句 。 

首先 需要 对 用 户 输入 的 自然 语言 文本 进行 预 处 
理 , 主 要 过 程 包括 自动 分 词 .词性 标注 和 去 停 用 词 。 计 
算 机 无 法 直接 对 文本 格式 的 数据 进行 处 理 , 因而 需要 
将 文本 转换 为 向 量 。 实 体 识别 是 指 能 够 从 用 户 语句 中 
自动 提取 含有 特定 意义 的 词语 ,比如 人 名 、 地 名 等 。 
意图 识别 是 指 能 够 根据 用 户 提 出 的 直接 或 者 间接 信 
息 快 速 判断 用 户 的 真实 意图 ,并 将 对 话 意图 与 具体 
问题 类 型 对 应 起 来 。 意 图 识别 本 身 是 一 个 分 类 问 
题 ,常用 的 方法 有 基于 模糊 匹配 和 基于 深度 学 习 神 
经 网 络 模型 等 。 

(2) 知 识 图 谱 查 询 。 通 过 对 用 户 输入 的 核心 信息 
进行 判断 ,分 析出 用 户 想 要 询问 的 问题 后 ,就 可 以 根据 
意图 识别 算法 模型 自动 生成 Cypher 格式 的 数据 库 查 
询 表 达 式 ,在 图 数据 库 中 进行 属性 查询 .关系 查询 或 者 
知识 推理 。 部 分 知识 查询 实例 如 表 1 所 示 : 

表 1 部 分 问答 实例 知识 图 谱 查询 表 


查询 类 别 查询 实例 Cypher 查询 表达 式 
属性 查询 《作品 》 的 作者 ” codel = 图 谱 名 称 . run(“MATCH (ni:Litera- 
是 谁 ture | name: 《作品 名 称 》 | ) return n”). 
data( ) 
关系 查询 “ 某 人 ”的 籍贯 code2 = 图 谱 名 称 . run(“MATCH (d: 人 物 ) 
是 哪里 -[: “籍贯 ] - > (n) WHERE d. Name = 
“人 物 名 称 ”return n”). data( ) 
知识 推理 分析" 某 人 "的 for i in per: 
革命 履历 print (正在 分 析 ”+ data [“person”] + 
“的 ”+i) 
sqls =“MATCH (d: 人 物 名 称 ) -[:||] 
一 >(n) WHERE d. Name = “| | ”re- 


turm n”. format(i, data[ “person” | ) 


习 谱 名 称 . run( sqls). data( ) 


code = 


需要 说 明 的 是 ,本 研究 知识 推理 的 实现 ,融合 了 关 
系 路 径 (Path Ranking Algorithm ，Path Ranking ) 推理 与 
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ChipaX%y 合 仿 期 利 
张 云 中 ， 郭 冬 ， 王 亚 镶 ， 等 . 基于 知识 图 谱 的 红色 历史 人 物 知 识 问答 服务 框架 研究 [J] ,图书 情 撤 卫 扫 30 员 (区 


二 是 ”4 


知识 能 入 式 表 示 (Translating Embedding，TransE ) 两 种 
算法 ,通过 TransE 算法 将 知识 图 谱 中 的 实体 和 关系 映 
射 到 低 维 稠密 的 空间 中 ,将 Path Ranking 推理 转化 为 
实体 与 关系 所 关联 的 向 量 或 矩阵 之 间 的 运算 ,这 种 运 
算 的 操作 花 销 比 传统 关系 路 径 推理 要 小 很 多 ,故而 能 
显著 提升 其 推理 效率 ;同时 ,通过 对 实体 信息 进行 语义 
挖掘 ,能 够 搭建 新 的 图 关系 路 径 , 有 助 于 发 现 隐 含 知 
识 。 

(3 ) 自然 语言 生成 。 自 然 语言 生成 的 任务 是 在 正 
确 理解 用 户 意图 的 基础 上 ,结合 在 知识 图 谱 中 查询 到 
的 结果 ,重新 组 织 语言 ,以 流畅 .通顺 . 易 懂 的 语句 回答 
用 户 ,自然 语言 生成 方法 通常 包括 检索 式 和 生成 式 两 
种 。 前 者 依据 意图 类 别 在 知识 库 中 检索 相应 的 答案 ， 
再 利用 不 同 的 规则 模板 来 完成 语句 加 工 和 生成 ,优势 


I I 

《@O ! 数据 获取 1 1 

cg 1 1 
于 二 | 红色 历史 人 物 半 | | 

结构 化 数据 
Te 1 I 1 
LO ||| 人 
人 | 上- 正则 表达 式 
(ew | 1 ” 人工 校对 
网 1 

Bc] | I 

| 1 


在 于 生成 的 答案 较为 准确 ,缺陷 是 当 识别 不 到 问题 意 
图 时 无 法 返回 答案 ;后 者 通过 大 量 已 标注 数据 ,训练 问 
题 - 答案 的 神经 网 络 模型 ,例如 seq2seq、attention + 
BILSTM BERT 等 ,将 问题 输入 到 已 训练 好 模型 ,可 以 
端 到 端的 直接 返回 答案 语句 ,优势 在 于 有 问 必 答 且 答 
案 语句 多 样 化 ,但 答案 准确 性 依赖 于 机 器 学 习 的 效果 。 
考虑 到 生成 式 方法 的 答案 严谨 性 较 差 , 具 有 不 确定 性 ， 
不 适合 于 红色 历史 人 物 知识 问答 ,本 研究 采用 检索 式 
实现 答案 生成 。 
2.2 ”模型 与 流程 

根据 红色 历史 人 物 数字 资源 的 特点 ,结合 知识 图 
谱 构 建 的 一 般 方法 ,本 人 研究 遵从 简洁 、 科 学 有效 的 原 
则 ,建立 了 红色 历史 人 物 数字 资源 知识 问答 模型 ,如 图 


物 知识 问答 
Agent 


红色 历史 人 物 
三 元 组 数据 


(实体 、 属 
性 、 关 系 ) 


实体 消 歧 


实体 合并 


数据 获取 

红色 历史 人 物 数字 资源 来 源 比 较 广泛 ,通常 包括 
结构 化 数据 、 半 结构 化 数据 与 非 结 构 化 数据 。 现 存 红 
色 历 史 人 物 数字 资源 中 ,完整 可 用 的 结构 化 数据 较为 
缺少 ,通常 为 半 结 构 化 数据 与 非 结构 化 数据 。 通 常 , 非 
结构 化 半 结 构 化 数据 可 通过 数据 抽取 技术 与 工具 , 转 
为 格式 化 结构 。 本 研究 主要 采用 python 爬虫 ,利用 正 
则 表达 式 对 微 信 公 众 号 、 百 度 人 物 百 科 中 的 半 结 构 化 
数据 进行 自动 抽取 ,并 将 抽取 数据 转换 成 结构 化 的 
JSON 格式 为 下 一 步 知识 抽取 任务 提供 基础 。 
2.2.2 知识 抽取 

知识 抽取 是 指 对 来 源 不 同 、 结 构 不 同 的 数据 进行 
处 理 , 抽 取 项 目 中 所 需要 的 信息 形成 知识 ,并 按 一 定 的 
格式 将 其 进行 存储 。 本 文 根 据 前 文 所 构建 的 红色 历史 
人 物 知识 图 谱 Schema 模型 的 信息 需求 对 红色 历史 人 
物 数 字 资 源 进 行 知 识 抽取 , 主要 包括 实体 识别 、 属 性 抽 


3 红色 历史 人 物 数字 资源 知识 问答 模型 


实体 抽取 就 是 对 具有 特定 意义 的 实体 进行 抽取 ， 
主要 包括 人 物 姓名 .重大 事件 .代表 著作 和 地 名 等 信 
息 ; 属 性 抽取 通常 是 对 人 物 、 作 品 或 事件 等 实体 的 属性 
描述 进行 提取 ;关系 抽取 通常 是 以 三 元 组 的 形式 进行 ， 
负责 提取 实体 间 的 关系 并 形成 知识 网 络 。 本 文 主要 采 
用 基于 神经 网 络 与 规则 相 结 合 的 模型 进行 关系 抽取 ， 
模型 融合 的 优势 在 于 能 最 大 程度 地 解析 来 自 不 同 数据 
源 的 半 结 构 化 数据 与 非 结 构 化 数据 ,为 构建 知识 图 谱 
奠定 数据 基础 。 
2.2.3 知识 融合 

知识 抽取 完毕 后 ,还 需 采 用 知识 融合 方法 ,对 抽取 
结果 进行 整合 ,通过 合并 红色 历史 人 物 数字 资源 中 存 
在 的 化 名 别名、 地 名 称呼 等 ,来 完成 实体 消 歧 ,为 后 续 
知识 图 谱 的 推理 提供 底层 支撑 。 

文本 相似 度 计算 是 知识 融合 常见 的 方法 之 一 ,其 
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原理 是 将 实体 中 文本 相似 度 高 于 一 定 阔 值 的 实体 进行 
合并 。 本 研究 对 比 了 Jacard 相似 度 .编辑 距离 欧 氏 距 
离 simhash 算法 .余弦 相似 度 和 TF-IDF 等 短文 本 相似 
度 常用 算法 ,以 简洁 有 效 为 原则 ,结合 红色 历史 人 物资 
源 相关 实体 特征 ,最 终 选 用 实体 字符 串 相似 度 计算 方 
案 一 一 加 权 编 辑 距离 算法 和 了 TF-IDF 算法 。 
2.2.4 ”图谱 生成 
知识 融合 之 后 的 实体 、 属 性 及 关系 可 用 RDF 三 元 

组 进行 表示 。RDF 三 元 组 资源 描述 框架 可 以 有 效 揭示 
数据 与 数据 之 间 的 联系 ,其 序列 化 的 方式 主要 包括 
RDF/XML. N-Triples Turtle .RDFa, JSON-LD 等 。 本 文 
采取 的 方案 是 通过 JSON-LD 以 键 值 对 的 方式 形象 地 
存储 三 元 组 数据 ,再 通过 python 程序 语言 中 的 py2neo 
第 三 方 库 将 三 元 组 知识 存储 到 图 数据 库 NE04J 中 ,该 

案 的 优势 是 响应 快速 ,兼容 性 强 、 易 于 落地 。 
2 闻 =56 知识 问答 

LO 知识 图 谱 构建 完成 后 ,可 以 在 此 基础 上 实现 红色 
庞 币 人 物 知 识 智能 问答 。 本 研究 主要 通过 自然 语言 理 
解 < 铭 识 查询 .自然 语言 生成 三 个 主要 步 又 实现 问答 过 
程 习 

在 问答 设计 过 程 中 ,借鉴 了 多 轮 问答 中 意图 识别 
与 三 填充 的 思想 ,结合 机 器 学 习 算 法 完成 自然 语言 识 
别 广 功能。 在 将 意图 识别 结果 自动 转换 成 Cypher 表 
达 伯 后 ,通过 调用 python 的 py2neo 库 在 NEO4J 中 完成 
向 训 查询 ,最 后 对 结果 进行 解析 并 生成 答案 。 


class Wechat_data_get() : 


[LT | def response (self，flow: mitmproxy. http. HTTPFlow) : 
aa url = flow. request. url 


next_page = None 


if "mp/profile ext?action=home’ in url or ’mp/profile ext?action=getmsg” in url: 


ctx. 1og. info( 抽取 文章 列表 数据 ') 


3 ”实证 研究 : 老 上 大 红色 历史 人 物 知 识 
问答 服务 


3.1 ”对象 选择 

本 文选 取 老 上 大 历史 人 物 数字 资源 作为 案例 进行 
实证 人 研究。 一 方面 ,从 历史 角度 , 老 上 大 历史 人 物 的 活 
跃 时 期 多 处 于 二 十 世纪 二 十 年 代 , 属 于 早期 的 红色 历 
史 人 物 ,其 历史 贡献 卓著 ,与 红色 历史 活动 的 发 源 地 上 
海 密切 相关 ; 男 一 方面 ,人 研究 团队 从 2014 年 起 ,致力 于 
对 老 上 大 历史 人 物资 料 展开 收集 和 整理 ,并 建立 公众 
号 “上 大 故事 ” ,以 规范 的 数据 板块 对 52 位 老 上 大 历史 
人 物 知识 展开 推介 ,数据 形式 为 非 结构 数据 ,而 作为 半 
结构 化 数据 的 百度 百科 的 知识 则 可 作为 本 研究 的 补充 
数据 源 。 综 上 ,从 历史 视角 和 数据 视角 考虑 ,选择 老 上 
大 历史 人 物 作为 案例 进行 红色 历史 人 物 知识 问答 服务 
框架 实证 具有 一 定 的 代表 性 和 可 操作 性 。 
3.2 关键 环节 
3.2.1 老 上 大 红色 历史 人 物 数据 获取 

通过 对 “上 大 故事 ”公众 号 发 布 的 52 位 人 物 专 题 
进行 网 络 爬 虫 ,获取 人 物 相关 文 章 共 146 篇 ,部 分 爬虫 
程序 如 图 4 所 示 。 为 了 使 内 容 更 加 完整 全 面 ,本 研究 
从 百度 百科 人 物 简 介 获 取 了 一 些 人 物 基本 信息 和 革命 
履历 描述 内 容 作 为 补充 。 


六 疾 访 列表 包 语 html 矿 式 币 json 衣 式 


next_page = deal_data. deal_article_list (url, flow. response. text) 


flow. response. text = re. subke 《img.*?>，”” 


elif ’/s?_biz=" in url or ’/mp/appmsg/show?_biz=" in url or“/mp/rumor” in url: 


ctx. 1og. info( 抽取 文章 内 容 ") 


， flow. response. textj 


放 呈 访 凡 次; mp/appmsg/show? biz 2 


next_page = deal_data. deal_article(url, flow.response. text) 


EEAW C script > setTimeout (function() {window. location, href = "url’; 
flow. response. headers. pop(” Content-Security-Policy ,None) 

flow. response. headers. pop(” content-security-policy-report-only ，None) 

flow. response. headers. pop(" Strict-Transport-Security ,None) 


4 公众 号 礁 虫 部 分 代码 截图 


3.2.2 老 上 大 红色 历史 人 物 知 识 抽取 

鉴于 选取 案例 缺乏 有 关 老 上 大 红色 历史 人 物 数据 
的 专 有 和 名词 标 注 数据 集 ,本 文采 取 规 则 与 深度 学 习 神 
经 网 络 模型 相 结 合 的 方式 来 进行 知识 抽取 。 实 体 抽取 
主要 通过 爬虫 分 析 结巴 分 词 专 有 名 词 的 自动 提取 来 


实现 ;属性 和 关系 主要 以 三 元 组 关系 进行 抽取 ,具体 方 
式 包括 在 网 络 爬 虫 时 根据 半 结 构 化 数据 的 H5 标签 进 
行 自动 提取 ,利用 Jiagu 深度 学 习 神经 网 络 开源 模型 对 
段落 篇 章 等 非 结构 化 数据 进行 自动 化 抽取 。Jiagu 以 
BILSTM 模型 等 为 基础 ,使 用 大 规模 中 文 语 料 训练 而 
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张 云 中 , 郭 冬 , 王 亚 饮 ,等 . 基于 知识 图 谱 的 红色 历史 人 物 知 识 问 签 服务 框架 研究 [J]. 图 书 情 闪 中 忆 作 信念 组 简 


二 由 


成 ,由 于 已 存在 预 训练 模型 ,其 使 用 时 无 需 额 外 标注 ， 
可 通过 调用 python 第 三 方 库 相关 函数 实现 知识 抽取 功 
能 。 


例如 ,输入 "瞿秋白 1899 年 1 月 29 日出生 于 江苏 


常州 ,本 名 双 , 后 改 枞 更 ,性 霜 , 字 秋 白 , 生 于 江苏 常州 ， 
中 国共 产 党 早期 主要 领导 人 之 一 "时 ,模型 将 自动 就 句 
子 中 所 含 的 三 元 组 关系 进行 抽取 罗列 ,结果 如 下 图 5 
所 示 : 


E: \anaconda3\envs\pv36\lib\site-packages\tensorflow\python\framework\dtvpes. py: 525: FutureWarning: Passing (type, 1) or "1ltype” as a synonyn 


np_resource = np. dtype([(’resource”, np.ubyte, 1)]) 


E:\anaconda3\envs\pv36\lib\site-packages\tensorboard\compat\tensorflow stub\dtvpes. py:541: FutureWarning: Passing (type, 1) or 'ltype’ as a 


_np_qint8 = np. dtype([(“qint8”, np.int8, 1)]) 


E:\anaconda3\envs\pv36\]ib\site-packages\tensorboard\compat\tensorflow stub\dtvpes. py:542: FutureWarning: Passing (type, 1) or 'ltype’ as a 


_np_quint8 = np. dtype([(“quint8”, np.uint8, 1)]) 


:\anaconda3\envs\py36\1ib -package ard 
np. int16, 1)]) 


a 4 ensorboard 
_np_qint16 = np. dtype([ (“qint16”, 


:\anaconda nvs\pY2D D ackag nsorboard 了 
_np_quint16 = np. dtype([(“quint16“，np.uint16，1)]) 
Vv 1 1 一 

_np_qint32 = np. dtype([(“qint32”， 


np, int32，1)]) 


d kag ensorboard 
np_resource = np. dtype([(“resource”, np.ubyte, 1)]) 


43: FutureWarning: Passing (type, 1) or 'ltype’ as a 


4: FutureWarning: Passing (type, 1) or 'ltype’ as a 


: FutureWarning: Passing (type, 1) or 'ltype’ as a 


: FutureWarning: Passing (type, 1) or "ltype” as a 


WARNING: tensorflow: From E:\anaconda3\envs\py36\lib\site-packages\jiagu\bilstm_crf. py:28: The name tf. GraphDef is deprecated. Please use tf. 


WARNING: tensorf low: From E:\anaconda3\envs\py36\lib\site-packages\jiagu\bilstm_crf. py:40: The name tf. Session is deprecated. Please use tf. cc 


Process finished with exit code 0 
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本 研究 使 用 以 上 方法 半自动 化 抽取 实体 数量 531 
八 属 性 67 个 三 元 组 数量 421 个 ,后 续 通过 人 工 校对 
增加 实体 52 个 、 属 性 2 个 ` 三 元 组 39 个 。 具 体 
知 调 抽取 情况 如 表 2 所 示 : 
©O 


| 表 2 知识 抽取 结果 统计 表 


。” 知识 来 源 实体 数量 属性 数量 三 元 组 数量 
apBPython 把 虫 289 E 191 
ieba 词 库 62 0 0 
agu 模型 180 32 230 
校对 新 增 52 2 39 
共计 583 69 460 


一 全 一 -二 一 一 一 一 一 一 
3.2.3 老 上 大 红色 历史 人 物 实体 融合 

本 文采 用 加 权 编 辑 距离 算法 和 TF-IDF 两 个 算法 
来 计算 实体 字符 串 的 相似 度 。 

编辑 距离 (Levenshtein Distance ) 是 NLP 中 一 种 计 
算 两 个 字符 串 间 差异 程度 的 字符 串 度量 指标 ,其 主要 
寺 点 在 于 使 用 了 动态 规划 的 思想 来 比较 文本 结构 ,在 
短文 本 相似 度 计算 上 速度 快 且 准确 率 较 高 。 两 个 红色 
历史 人 物 数字 资源 实体 字符 串 a,b 的 Levenshtein Dis- 
tance 可 表示 为 lev,, (1al,1b|), 其 中 1al,1b| 分 别 对 
应 a,b 的 长 度 。 通 过 矩阵 计算 和 循环 迭代 ,可 得 出 两 
个 实体 字符 串 的 编辑 距离 并 记 为 L_Distance ,这 里 的 ?， 
J 在 计算 时 可 视 为 是 a,b 的 长 度 1al,1b1 ,计算 方式 如 
公式 (1) 所 示 : 


[[ 趴 秋 白 '，’' 出 生日 期 ，' 1899 年 1 月 29 日 ' ]，[ 中 秋 白 '，’ 出 生地 * ，’ 江苏 常州 ]，[ 趴 箱 ' ，’ 出 生地 ' ，’ 江苏 常州 ' ]，[" 中 箱 ' ，’' 国籍 "，' 中 国 ' ]] 


5 知识 抽取 程序 运行 示意 


max(i,]) if min(i,) =0 


lev, , (i—1,) +1] 
lev, , (i,) = 


mind lev, ,(i,j —1) +1 otherwise 


lev, (i-1j-1) +1 


(ub) 
公式 (1) 
TF-IDF 是 一 种 统计 方法 ,通过 TF-IDF 算法 提取 的 
词 向 量 能 较 好 地 反映 实体 字符 串 之 间 的 差异 性 。 在 提 
取得 到 两 个 实体 字符 串 的 词 向 量 之 后 ,通过 向 量 余弦 
公式 可 以 计算 出 他 们 的 相似 度 值 sim(a,5), 记 为 T_ 
Distance ,计算 方式 如 公式 (2) 所 示 : 


. 6b) 
sim (a, b) = cos (0) a 
al lol 
2 公式 (2) 


2 

经 过 实验 调 优 ,最 终 两 个 实体 字符 串 的 相似 度 如 
公式 (3) 所 示 : 

similarity =0.6 * L_ Distance +0.4 * T_Distance 

公式 (3) 

当 similarity 相似 度 值 大 于 0. 85 时 就 认为 a,b 两 
个 字符 串 属于 同一 实体 , 即 可 通过 Cypher 语言 的 
merge 函数 进行 相同 实体 合并 ,否则 认为 <, 属于 不 同 
实体 。 通 过 以 上 知识 融合 步骤 ,本 研究 共 融 合 实体 
236 个 ,完成 了 对 多 源 实体 信息 的 合并 融合 ,便于 系统 
囊括 多 种 渠道 数据 丰富 三 元 组 知识 ,有 效 保障 了 后 续 
推理 和 问答 的 准确 率 。 
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3.2.4 老 上 大 红色 历史 人 物 图 谱 生 成 

将 三 元 组 数据 整理 完成 之 后 ,利用 python 的 第 三 
方 库 py2neo, 通 过 Cypher 语句 将 三 元 组 数据 自动 导入 
到 图 数据 库 NEO4J 中 , 即 可 依托 NEO04J 可 视 化 功能 


ya 


4.00516v1 
59 
全 
> 


所 从 图 6 中 可 以 直观 看 出 部 分 老 上 大 历史 人 物 的 三 


示 老 上 大 红色 历史 人 物 可 视 化 知识 图 谱 。 知 识 图 谱 中 
共有 实体 347 个 ,属性 数量 69 个 ,关系 数量 460 个 ,部 
分 可 视 化 界面 如 图 6 所 示 : 


图 6 老 上 大 历史 人 物 NEO4J 部 分 数据 截图 


位 识别 后 将 自动 填充 为 | entity_num :|[1], “entity”: 


元 是 信息 。 例 如 , 施 存 统 、 陈 望 道 . 丰 子 恺 和 张 崇文 等 
ee 
师 陈 望 道 的 代表 作 之 一 是 共产 党 宣言 的 翻译 著作 , 创 
建委 1920 年 ,从 代表 作 节选 的 实体 属性 中 还 能 看 到 访 
六 疹 的 内 容 节 选 , 缘 缘 党 是 与 丰 子 人 相关 的 遗迹 ,位 于 
浙 娃 ， 

3:ZE5 老 上 大 红色 历史 人 物 知识 问答 

CGI ) 文 本 预 处 理 。 本 案例 采用 开源 工具 结巴 分 词 
来 对 问 句 进行 自动 分 词 ,词性 标注 。 通 过 结巴 分 词 内 
置 的 自 定 义 词典 功能 ,将 老 上 大 历史 人 物 知识 图 谱 中 
的 实体 通过 python 编程 语言 创建 到 结巴 自 定义 词典 ， 
实现 了 对 用 户 问 句 中 所 含 实体 的 自动 抽取 ,为 意图 识 
别 商定 了 基础 。 

(2) 意 图 识别 。 本 案例 采用 槽 填充 和 朴素 贝 叶 斯 
算法 构建 了 意图 识别 的 主要 模型 ,并 辅助 模糊 匹配 算 
法 对 意图 较为 不 明确 的 语句 进行 二 次 识别 。 

“ 槽 填充 + 机 器 学 习 分 类 算法 "是 一 种 可 精确 识 
别 用 户 问题 类 别 的 意图 识别 方法 。 槽 是 对 话 过 程 中 将 
初步 的 用 户 意图 转化 为 明确 的 用 户 指令 所 需 补 全 的 信 
息 " 1。 一 个 楷 与 一 次 问答 处 理 中 所 需要 获取 的 某 个 
信息 相对 应 ,回答 完整 问 句 通常 需要 基于 实体 .属性 、 
关系 构建 链 式 槽 位 并 做 相应 填充 。 以 问 句 是 “瞿秋白 
1937 年 在 什么 单位 任职 "为 例 , 可 构建 如 下 链 式 槽 ,本 


[ “瞿秋白 ”]， “quality_deep ” :[“ True” ], ‘quality’: 
[ “position’” ] , “intent’ :[ ] | 。 
槽 填充 完成 后 ,需要 将 槽 位 填充 的 属性 与 具体 问 
题 对 应 起 来 ,此 功能 需要 朴素 贝 叶 斯 算法 来 辅助 实现 。 
针对 不 同 槽 位 依次 填充 的 结果 ,采用 朴素 贝 叶 斯 算法 
学 习 意 图 识别 模型 的 输入 和 输出 的 联合 概率 分 布 ,并 
求 出 后 验 概率 最 大 的 输出 , 即 为 对 话 最 可 能 的 意图 。 
如 果 用 户 语句 所 含 信息 不 足以 填充 足够 槽 位 进而 完成 
意图 分 类 , 则 需要 用 到 模糊 匹配 作为 辅助 模型 。 本 案 
例 以 编辑 距离 和 余弦 相似 度 算法 相 加 权 作 为 短文 本 相 
似 度 计算 的 核心 步骤 ,对 计算 结果 按 降序 排列 取 最 高 
概率 值 , 即 为 最 可 能 的 问答 意 
3.3 结果 展示 
3.3.1 系统 结构 

本 案例 搭建 的 智能 问答 系统 原型 框架 如 图 7 所 
示 , 主 要 包括 数据 获取 、 数 据 处 理 ` 图 谱 生成 .意图 识 
别 sql 语句 生成 ,答案 查询 、 前 后 端 flask 交互 等 环节 。 

系统 原型 的 前 端 采 用 H5 搭建 了 一 个 网 页 聊天 框 
式 的 服务 ;后 端 采 用 python 编程 语言 来 实现 整个 智能 
化 识别 查询 .生成 的 底层 功能 ;而 前 后 端 交 互 则 采用 
了 目前 十 分 流行 的 Flask web 框架 。Flask 框架 的 主要 
特征 是 核心 构成 比较 简单 ,但 具有 很 强 的 扩展 性 和 兼 
容 性 ,因此 可 以 快速 实现 一 个 网 页 智能 聊天 的 服务 。 
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二 由 


SHU_Person_Graph 


# 老 上 大 历史 人 物 知识 图 谱 问答 系统 


——-get_data. py # 网 络 肥 虫 程序 
——-process. py 5 数据 预 处 理 程 序 
——-data 5 数据 模块 
-一 static # 前 后 端 交 互 模块 
——-css # 前 端 核 心 代码 
——-images # 对 话 框 相关 图 片 
= # 前 后 端 交 互 代码 
---templates # 前 端 页 面 模块 
—-h5. html 5HTML 页面 代码 
-一 bac. jpg 5 页 面 图 片 
——-build_graph. py 族 0 识 图 谱 构 建 
——-bayes. models ;意图 识别 模型 参数 
——-intention_recog. py ;意图 识别 模块 
——-search_answer. py # 图 谱 检 索 模 块 
——-sql.py #Cypher 语 句 生成 
一 -main. py # 启 动 问答 主 程序 
—-README. md # 寺 助 文档 
-一 requirements. txt 闫 本 要 求 


图 7 老 上 大 历史 人 物 知 识 图 谱 问答 系统 架构 


3.3.2 问答 示例 

本 案例 的 问答 示例 主要 涉及 红色 历史 人 物 的 基本 
信息 、 社 会 关系 、 革 命 经 历 、 作 品 著述 、 数 字 档 案 、 智 能 
推理 等 典型 问题 ,图 8 展示 了 问答 系统 的 交互 过 程 。 
其 中 ,基本 信息 问答 展示 了 有 关 睦 秋 白 、 匡 梦 非 和 马 宁 
等 人 籍贯 .出 生年 份 .个 人 成 就 等 方面 的 问答 ;社会 关 
系 问答 展示 了 “ 许 心 影 的 老师 ”和 “ 王 环 心 的 入 党 介绍 
人 ”等 定向 社会 关系 问答 ,还 有 “ 吴 梦 非 社会 关系 都 有 
哪些 "的 遍历 式 社会 关系 问答 ;革命 经 历 问 答 展示 了 柯 
柏 年 \ 施 存 统 、 丰 子 已 三 位 老 上 大 历史 人 物 在 不 同年 份 
革命 履历 的 问答 ;作品 著述 问答 展示 了 对 于 陈 望 道 及 
其 著作 信息 的 问答 ,如 “ 陈 望 道 有 哪些 代表 作 ”“ 共 产 
党 宣言 是 什么 类 型 的 作品 ”“ 给 我 推荐 一 下 共产 党 宣 


™ 
~ 老 上 大 历史 人 物 知识 问答 系统 老 上 大 历史 人 物 知识 问答 系统 老 上 大 历史 人 物 知 识 问答 系统 
(© 妖 秋 白 是 哪儿 人 许 心 影 的 老师 是 谁 柯 柏 年 1925 年 有 什么 革命 经 历 | | 
T ww 杨 之 华 , 覆 秋 白 漫 海中 学 校长 杜 国库 聘请 柯 柏 年 任 浊 海 中 学 教 
cA | 葵 - | 员 ; 开始 第 二 次 东 征 ; 黄埔 军校 讲课 ; 任职 于 
LO | 吴 梦 非 是 哪 年 出 生 的 呢 王 环 心 的 入 党 介绍 人 昵 | 加 “汕头 收回 教育 委员 会 "。 
二 4 1893 怪 代 英 , 欣 秋 白 施 存 统 1937 年 经 历 了 什么 事情 
国 马 宁 有 什么 成 就 介绍 一 下 吴 梦 非 的 社会 关系 有 哪些 全 面 抗日 战争 爆发 后 ， 各 界 纷纷 成 立 救国 会 ， 施 
+ | | 
海内 外 许多 报刊 发 表 文章 ， 公 正 地 评价 了 他 的 业 他 的 事 子 是 王 元 振 , 他 的 老师 是 李叔同 , 他 的 同学 、 日 报 》、 呼声 》、 
© 绩 ， 以 及 在 中 国 现代 文学 史上 的 地 位 和 在 马 、 华 | ， 是 丰 子 恺 和 刘 质 平 上 _ 日 报 》 等 报刊 上 发 表 文章 ， 呼 吁 民主 抗战 ， 
CD 新 文学 运动 中 的 作用 ， 作 出 了 很 大 的 贡献 ， 并 且 dd 
发 挥 了 高 度 的 影响 力 。 马 宁 晚 年 曾 担任 中 国 作家 丰 子 恺 1949 年 在 做 什么 
CN 协会 会 员 ， 中 国人 才 之 家 顾问 ， 福 建 省 文联 名 淮 . 2 : 
委员 ， 福 建 省 国际 文化 经 济 交 流 中 心理 事 ， 福 建 建国 以 后 ， 丰 子 恺 主要 从 事 翻 译 俄 文 与 日 文 的 文 
©O 省 文史 研究 馆 名 誉 副 馆 长 等 职 ，1995 年 荣获 中 学 作品 ， 并 历任 上 海 市 人 民 代表 与 政协 委员 、 全 
CN ,。 国 作协 授予 的 "抗日 战争 胜利 五 十 周年 纪念 牌 "。 国政 协 委 员 、 中 国美 术 家 协会 常务 理事 、 上 海 市 
和 要 美术 家 协会 主席 、 上 海 市 作家 协会 副 主席 上海 | 
~ 了 _ 市 文学 艺术 家 联合 会 副 主 席 。 | 
~ 3 rw 3 革 仙 经 历 问答 《3) 
>< 老 上 大 历史 人 物 知识 问答 系统 老 上 大 历史 人 物 知识 问答 系统 
- 陈 望 道 有 哪些 代表 作 呢 老 上 大 历史 人 物 中 与 五 州 运动 相关 的 有 哪些 人 | 
CE 共产 党 宣言 , 漫谈 马 氏 文通 , 修辞 学 发 凡 , 标点 之 ,。 月 昌 准 1925 年 的 履历 与 五 州 运动 相关 
革新 , 辞海 ca 
3D， 老 上 大 历史 人 物 中 籍贯 是 浙江 的 都 有 谁 
© 那 共产 党 宣言 是 什么 类 型 的 作品 我 想 知道 陈 望 道 与 妻子 的 链接 
吴 梦 非 , 张 崇文 , 孔 另 境 , 丰 子 恺 , 施 存 统 , 陈 望 道 , 
加 熏 译 著作 hatpWmmbiz.qpiccn/mmbiz_jpg/uwG8rltQQPF| 。 曹 天 风 , 戴 介 民 
本 站 tp=webp&wxfrom=5&wx_lazy=18&wx_co=1 wr 
给 我 推荐 一 下 共产 党 宣言 的 精彩 片段 | ““ 老 上 大 历史 人 物 中 参加 了 开国 大 典 的 都 有 哪些 人 
S 请 问 陈 望 道 档案 目录 存放 在 对 里 
共产 党 人 同 其 他 无 产 阶级 政党 不 同 的 地 方 只 是 李 伍 1949 年 的 履历 与 开国 大 典 相关 , 施 存 统 1949 
一 方面 ， 在 各 国 无 产 者 的 斗争 中 ， 共 产 党 人 强 凋 ,。 上 海 市 档案 馆 ,。 年 的 履历 与 开国 大 典 相关 
和 坚持 整个 无 产 阶 级 共同 的 不 分 民族 的 利益 ; 另 bud ” 
一 方面 ， 在 无 产 阶级 和 资产 阶级 的 斗争 所 经 历 的 改 秋 白 同志 故居 位 于 哪里 
利益 。 因 此 ， 在 实践 方面 ， 共 产 党 人 是 各 国 工人 江苏 


论 方面 ， 他 们 胜 过 其 余 的 无 产 阶级 群众 的 地 方 在 
了 解 无 产 阶级 运动 的 条 件 、 进 程 和 一 般 结 | 
产 党 人 的 和 其 他 er 阶级 


图 8 


言 的 精彩 片段 "等 ;数字 档案 问答 展示 了 部 分 人 物 数字 
档案 名 称 、 多 媒体 链接 、 存 放 地 址 和 位 置 等 的 问答 ; 智 
能 推理 问 管 中 展示 了 “ 老 上 大 历史 人 物 中 与 五 州 运动 
相关 的 都 有 哪些 人 ”“ 参 加 了 开国 大 典 的 老 上 大 人 物 都 
有 哪些 *”“ 籍 贯 是 浙江 的 都 有 谁 ”等 问题 的 回答 。 

从 以 上 问答 实例 可 以 看 出 ,问答 系统 原型 能 较 准 确 


问答 系统 知识 问答 案例 演示 


地 识别 用 户 自 然 语言 的 问题 意图 ,通过 对 图 数据 库 中 不 
同 实体 的 内 容 进 行 分 析 、 相 关节 点 进行 遍历 与 追溯 ,还 
能 针对 较 复杂 的 问题 利用 知识 图 谱 进 行 推理 求解 ,从 而 
对 典型 红色 历史 人 物 的 问题 较 好 地 完成 了 解答 。 
3.3.3 问答 测试 

本 研究 对 上 文 所 实现 的 问答 服务 做 了 问答 准确 
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率 ,应 答 速度 两 方面 的 系统 功能 测试 。 研 究 采 集 了 老 
上 大 历史 人 物 知识 问答 爱好 者 的 热门 问题 200 余 条 ， 


示 。 对 话 服务 平均 延迟 为 0.16 秒 , 故 可 满足 百人 以 上 
规模 同时 向 问答 系统 发 送 请 求 并 迅速 做 出 回答 的 场 


再 通过 人 工 校对 、 分 类 、 补 充 , 制 作成 主题 赛 括 基本 信 
息 .社会 关系 .革命 经 历 . 作 品 著述 .数字 档案 和 智能 推 
理 六 类 , 共 150 个 问答 测试 对 ( 含 问 题 与 标准 答案 ) 作 
为 测试 数据 集 。 经 测试 ,本 系统 平均 准确 率 达 到 
90.6% 。 实 验证 明 ,本 研究 开发 的 自动 问答 系统 可 以 较 
为 准确 的 回答 大 多 数 问题 ,具体 测试 结果 如 表 3 所 示 : 
表 3 问答 系统 测试 结果 统计 表 


问题 类 别 测试 问题 数量 /个 回答 准确 数量 /个 ”回答 准确 率 /% 
基本 信息 25 24 96 
社会 关系 05 22 88 
革命 经 历 25 24 92 
非 品 著述 25 24 96 
3 小 宁 档 案 25 23 92 

- 智能 推理 25 19 76 

LO 共计 150 136 90.6 


加 同时 ,通过 使 用 ApacheJMeter 工具 对 问答 系统 的 
能 进行 了 200 个 并 发 量 的 测试 ,结果 如 图 9 所 


景 ,但 是 对 于 区 域 更 广 ` 人 数 更 多 时 的 应 用 落地 ,延迟 
达 0.5 秒 以 上 ,无 法 快速 做 出 响应 和 回答 ,性 能 仍然 存 
在 不 足 。 
3.4 结果 分 析 与 讨论 

本 研究 利用 知识 图 谱 对 老 上 大 历史 人 物 相 关 数 字 
资源 进行 了 描述 组织 与 关联 ,并 在 此 基础 上 实现 了 基 
于 知识 图 谱 的 智能 问答 系统 原型 。 该 系统 的 优越 性 体 
现在 以 下 几 点 : 

(1) 实现 可 视 化 展示 ,革新 资源 组 织 方式 。 提 供 
了 从 羊 结 构 化 与 非 结 构 化 数据 中 整合 红色 历史 人 物资 
源 、 构 建 知识 图 谱 的 技术 方案 ,并 依托 图 数据 库 实 现 了 
红色 历史 人 物 关 键 信息 资源 的 存储 和 可 视 化 。 

(2) 依 托 图 谱 化 关联 ,提升 回答 准确 率 。 以 知识 
图 谱 为 基础 的 对 话 系 统 擅长 于 解决 垂直 领域 的 问 
答 , 老 上 大 历史 人 物 知识 问答 系统 即 属于 此 类 ,其 实 
现 了 对 关联 数据 的 智能 问答 ,准确 性 高 于 闲聊 问答 
机 喜人 。 


-二 图 9 系统 性 能 测试 截图 


(3 ) 实现 智慧 化 交互 ,推广 应 用 前 景 良好 。 老 上 
大 历史 人 物 知 识 问 答 系统 可 以 封装 成 微 信 小 程序 面向 
更 为 广阔 的 受众 群体 ,可 大 大 提高 红色 历史 人 物 数字 
资源 的 普及 程度 ,激发 广大 读者 的 学 习 兴 趣 , 为 红色 知 
识 的 推广 传播 提供 一 种 新 的 途径 。 

同时 ,实证 案例 也 发 现 了 研究 中 存在 的 诸多 不 足 : 
受 老 上 大 历史 人 物 范围 所 限 , 人 物 样本 数量 较 少 ;缺少 
足够 的 已 标注 的 红色 历史 人 物 训 练 集 , 自 动 化 抽取 需 
要 辅 以 人 工 校对 ;并 发 量 超过 200 时 速度 性 能 不 足 ; 问 
答 展 示 的 应 用 形式 不 够 多 元 化 等 等 ,这 些 都 是 本 研究 
后 续 要 推进 解决 的 问题 。 


4 结语 


数字 人 文 背 景 下 大 数据 、 人 工 智 能 等 技术 的 不 断 
成 熟 和 深入 应 用 ,改变 了 传统 的 知识 组 织 和 服务 方式 ， 


有 效 地 利用 这 些 技术 ,将 为 红色 数字 资源 的 知识 组 织 
和 服务 变革 培植 新 的 动力 。 本 文 实现 的 老 上 大 历史 人 
物 的 知识 问答 系统 ,提供 了 从 多 源 数据 中 提取 红色 历 
史 人 物 关键 数据 并 构建 知识 图 谱 的 通用 方案 ,并 在 知 
识 图 谱 构 建 的 基础 上 ,探析 了 红色 历史 人 物 知识 问答 
系统 的 典型 应 用 ,为 知识 图 谱 技 术 赋 能 知识 组 织 及 知 
识 服 务 模式 提供 了 新 思路 ,更 为 红色 数字 资源 深度 开 
发 利用 提供 了 新 路 径 。 

本 研究 的 主要 创新 聚焦 于 红色 历史 人 物 数字 资源 
KBQA 架构 设计 及 其 运行 机 制 :中 结合 红色 历史 人 物 
知识 的 特点 ,借鉴 多 轮 问答 中 意图 识别 的 模 填 充 方案 ， 
提出 * 覃 填充 + 机 器 学 习 分 类 算法 ”的 意图 识别 方法 ， 
提高 了 意图 识别 的 精度 ;@ 采 用 TransE 和 Path Rank- 
ing 相 结合 的 算法 ,实现 了 基于 知识 图 谱 的 智能 推理 。 
下 一 步 , 本 研究 将 一 方面 扩展 红色 历史 人 物 样本 集 , 探 
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索 准 确 率 更 高 .速度 更 快 的 模型 来 规模 化 建构 红色 历 

史 人 物 知 识 图 谱 , 商定 坚实 的 数据 基础 设施 , 另 一 方 

面 ,本 人 研究 将 采用 微 信 小 程序 、APP 等 多 元 化 形式 拓宽 

红色 数字 资源 知识 服务 应 用 渠道 。 
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Absiract: | Purpose/significance | Knowledge graph has become a new form of public digital cultural resources 


organization. Using knowledge graph technology to enable the Knowledge Q & A service of red historical figures and 


improve user interaction experience is of great significance to the development and utilization of red historical re- 


sources. | Method/process | On the basis of combing the related research of digital resource organization and Knowl- 


edge Q & A system of historical figures, the paper constructed the knowledge graph schema and KBOQA architecture of 


red historical figures, and then built the model of Q & A from five aspects of data acquisition, knowledge extraction ， 


knowledge fusion, graph generation and Knowledge Q & A. This paper took the red historical figures digitalresources 


of Shanghai University( 1922 - 1927 ) as an example for empirical research. | Result/conclusion | The Knowledge Q 


& A service architecture designed in this paper has advantages in semi-automatic graph construction, knowledge rea- 


soning and intelligent interaction of digital resources of red historical figures, and improves the user knowledge serv- 


ice experience. 
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